由于巨大的未标记数据的出现,现在已经增加了更加关注无监督的功能选择。需要考虑使用更有效的顺序使用样品训练学习方法的样本和潜在效果的分布,以提高该方法的鲁棒性。自定步学习是考虑样本培训顺序的有效方法。在本研究中,通过整合自花枢学习和子空间学习框架来提出无监督的特征选择。此外,保留了局部歧管结构,并且特征的冗余受到两个正则化术语的约束。 $ l_ {2,1 / 2} $ - norm应用于投影矩阵,旨在保留歧视特征,并进一步缓解数据中噪声的影响。然后,提出了一种迭代方法来解决优化问题。理论上和实验证明了该方法的收敛性。将所提出的方法与九个现实世界数据集上的其他技术的算法进行比较。实验结果表明,该方法可以提高聚类方法的性能,优于其他比较算法。
translated by 谷歌翻译
汽车MMWAVE雷达在高级驾驶员辅助系统(ADA)和自动驾驶中起关键作用。基于深度学习的实例细分可以从雷达检测点实时对象识别。在常规培训过程中,准确的注释是关键。然而,由于雷达检测点的高质量注释,由于其歧义和稀疏性,要实现挑战。为了解决这个问题,我们提出了一种实施基于雷达检测点的实例细分的对比学习方法。我们根据地面真相标签定义正面和负样品,将对比度损失首先训练模型,然后对以下下游任务进行微调。此外,可以将这两个步骤合并为一个,并且可以为未标记的数据生成伪标签,以进一步提高性能。因此,我们的方法有四种不同的培训设置。实验表明,当仅适用于一小部分培训数据时,我们的方法仍然可以与以100%基真实信息进行监督的方式实现可比的性能。
translated by 谷歌翻译
我们提出了一种基于图的基于图的方法,用于标记给定的气道树分割的解剖学分支。该方法在气道树图中制定了气道标记作为分支分类问题,其中使用卷积神经网络(CNN)提取分支特征,并使用图形神经网络富集。我们的图形神经网络是通过从其本地邻居的每个节点聚合信息来实现的结构感知,并通过编码图中的节点位置来定位。我们在来自慢性阻塞性肺病(COPD)的各种严重阶段的受试者的220个气道树上评估了该方法。结果表明,我们的方法是计算上高效的,并且显着提高了分支分类性能而不是基线方法。与标准CNN方法获得的83.83 \%相比,我们的方法的总体平均精度达到91.18 \%。我们在https://github.com/diagnijmegen/spgnn发布了我们的源代码。该算法还在HTTPS://grand-Challenge.org/algorithms/airway-anatomical-labeling/上公开使用。
translated by 谷歌翻译
450万小时的英语演讲从10个不同的10个不同来源,跨越高达10亿参数的不同来源,我们探索了自动语音识别的规模前沿。我们提出了数据选择技术,以有效地缩放培训数据,以找到大规模数据集中最有价值的样本。为了有效地进行模型尺寸,我们利用各种优化,例如稀疏传感器丢失和模型分片。通过培训1-10B参数通用英语ASR模型,我们将语音识别性能的限制推动在许多域中。此外,我们的模型学习强大的语音表示,在新域名和言语方面具有零和少量功能,超出了多个内部和公共基准的先前结果。对于由于脑损伤而具有障碍的扬声器,我们最好的零射击和少量射频分别在Aphasiabank测试集中实现了22%和60%,同时在公共社交媒体视频中实现了最佳性能。此外,相同的通用模型在SPGISPeech Financial-Domain数据集上达到了500倍的域内数据等效性能。
translated by 谷歌翻译
测量自动语音识别(ASR)系统质量对于创建用户满意的语音驱动应用程序至关重要。传统上,单词错误率(WER)用于评估ASR系统质量;但是,它有时与用户对转录质量的看法/判断息息相关。这是因为wer平等地称重每个单词,并且不考虑对用户感知产生更高影响的语义正确性。在这项工作中,我们提出评估ASR输出的质量,可以通过使用参考的语义向量与从预训练的语言模型中提取的假设之间的距离来测量语义正确性。我们对71K和36K用户注释的ASR输出质量的实验结果表明,与WER相比,Semdist与用户感知的相关性更高。我们还表明,与WER相比,Semdist与下游自然语言理解(NLU)任务具有更高的相关性。
translated by 谷歌翻译
胸腔CT上的自动病变分割能够快速定量分析Covid-19感染的肺部受累。然而,获得用于训练分割网络的大量体素级注释是非常昂贵的。因此,我们提出了一种基于密集回归激活地图(DRAM)的弱监督分割方法。大多数弱监督的分割方法接近利用类激活映射(CAM)到本地化对象。但是,由于凸轮培训进行分类,因此它们不会与对象分割精确对齐。相反,我们使用来自培训的分割网络的密集特征生成高分辨率激活映射,以训练为估计每瓣病变百分比。以这种方式,网络可以利用关于所需病变卷的知识。此外,我们提出了一个注意神经网络模块,以优化DRAM,与主要回归任务一起优化。我们在90个科目中评估了我们的算法。结果表明,我们的方法达到了70.2%的骰子系数,显着优于凸轮基基线48.6%。
translated by 谷歌翻译
机器学习技术的兴起激发了电子设计自动化(EDA)中应用的繁荣,有助于提高芯片设计中的自动化程度。然而,手动制作的机器学习模型需要广泛的人类专业知识和巨大的工程努力。在这项工作中,我们利用神经结构搜索(NAS)来自动开发高质量的神经架构进行可排卵预测,这有助于引导细胞放置到可路由解决方案。我们的搜索方法支持各种操作和高度灵活的连接,导致架构与所有先前的人工制作模型显着不同。大型数据集上的实验结果表明,我们的自动生成神经架构明显优于多个代表手动制作的解决方案。与手动制作型号的最佳案例相比,NAS产生的模型达到了5.85%的kendall的$ \ tau $,以预测DRC违规的网数和ROC曲线(ROC-AUC)在DRC热点检测下的2.12%面积。此外,与人工制作的模型相比,易于花数周开发,我们的高效NAS方法只需0.3天即可完成整个自动搜索过程。
translated by 谷歌翻译
In this paper, we propose a robust 3D detector, named Cross Modal Transformer (CMT), for end-to-end 3D multi-modal detection. Without explicit view transformation, CMT takes the image and point clouds tokens as inputs and directly outputs accurate 3D bounding boxes. The spatial alignment of multi-modal tokens is performed implicitly, by encoding the 3D points into multi-modal features. The core design of CMT is quite simple while its performance is impressive. CMT obtains 73.0% NDS on nuScenes benchmark. Moreover, CMT has a strong robustness even if the LiDAR is missing. Code will be released at https://github.com/junjie18/CMT.
translated by 谷歌翻译
Dataset distillation has emerged as a prominent technique to improve data efficiency when training machine learning models. It encapsulates the knowledge from a large dataset into a smaller synthetic dataset. A model trained on this smaller distilled dataset can attain comparable performance to a model trained on the original training dataset. However, the existing dataset distillation techniques mainly aim at achieving the best trade-off between resource usage efficiency and model utility. The security risks stemming from them have not been explored. This study performs the first backdoor attack against the models trained on the data distilled by dataset distillation models in the image domain. Concretely, we inject triggers into the synthetic data during the distillation procedure rather than during the model training stage, where all previous attacks are performed. We propose two types of backdoor attacks, namely NAIVEATTACK and DOORPING. NAIVEATTACK simply adds triggers to the raw data at the initial distillation phase, while DOORPING iteratively updates the triggers during the entire distillation procedure. We conduct extensive evaluations on multiple datasets, architectures, and dataset distillation techniques. Empirical evaluation shows that NAIVEATTACK achieves decent attack success rate (ASR) scores in some cases, while DOORPING reaches higher ASR scores (close to 1.0) in all cases. Furthermore, we conduct a comprehensive ablation study to analyze the factors that may affect the attack performance. Finally, we evaluate multiple defense mechanisms against our backdoor attacks and show that our attacks can practically circumvent these defense mechanisms.
translated by 谷歌翻译
Automatic music generation with artificial intelligence typically requires a large amount of data which is hard to obtain for many less common genres and musical instruments. To tackle this issue, we present ongoing work and preliminary findings on the possibility for deep models to transfer knowledge from language to music, by finetuning large language models pre-trained on a massive text corpus on only hundreds of MIDI files of drum performances. We show that by doing so, one of the largest, state-of-the-art models (GPT3) is capable of generating reasonable drum grooves, while models that are not pre-trained (Transformer) shows no such ability beyond naive repetition. Evaluating generated music is a challenging task, more so is evaluating drum grooves with little precedence in literature. Hence, we propose a tailored structural evaluation method and analyze drum grooves produced by GPT3 compared to those played by human professionals, exposing the strengths and weaknesses of such generation by language-to-music transfer. Our findings suggest that language-to-music transfer learning with large language models is viable and promising.
translated by 谷歌翻译